位置识别是可以协助同时定位和映射(SLAM)进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中,该地点认可社区取得了惊人的进步,这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是,在复杂的现实世界情景中,很少有方法显示出有希望的位置识别性能,在复杂的现实世界中,长期和大规模的外观变化通常会导致故障。此外,在最先进的方法之间缺乏集成框架,可以应对所有挑战,包括外观变化,观点差异,对未知区域的稳健性以及现实世界中的效率申请。在这项工作中,我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先,我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后,我们回顾了最新的作品,以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后,我们回顾了现有的数据集以进行长期本地化,并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见:机器人是否需要准确的本地化来实现长期自治?这项工作以及我们的数据集和评估API的摘要可向机器人社区公开,网址为:https://github.com/metaslam/gprs。
translated by 谷歌翻译
Skill-based reinforcement learning (RL) has emerged as a promising strategy to leverage prior knowledge for accelerated robot learning. Skills are typically extracted from expert demonstrations and are embedded into a latent space from which they can be sampled as actions by a high-level RL agent. However, this skill space is expansive, and not all skills are relevant for a given robot state, making exploration difficult. Furthermore, the downstream RL agent is limited to learning structurally similar tasks to those used to construct the skill space. We firstly propose accelerating exploration in the skill space using state-conditioned generative models to directly bias the high-level agent towards only sampling skills relevant to a given state based on prior experience. Next, we propose a low-level residual policy for fine-grained skill adaptation enabling downstream RL agents to adapt to unseen task variations. Finally, we validate our approach across four challenging manipulation tasks that differ from those used to build the skill space, demonstrating our ability to learn across task variations while significantly accelerating exploration, outperforming prior works. Code and videos are available on our project website: https://krishanrana.github.io/reskill.
translated by 谷歌翻译
球形图像处理已被广泛应用于许多重要领域,例如自动驾驶汽车,全球气候建模和医学成像的全向视觉。扩展针对平面图像开发的算法的算法是非平凡的。在这项工作中,我们专注于具有基于深度学习的正常化程序的球形图像的具有挑战性的任务。我们采用了快速的方向球形帧转换,而不是对平面图像的现有模型的幼稚应用,并基于framelet变换的稀疏性假设而开发了一种新颖的优化框架。此外,通过采用渐进式编码器架构,经过精心设计的新的,表现出色的CNN Denoiser,可以作为隐式正规化程序进行设计。最后,我们使用插件方法来处理提出的优化模型,可以通过训练CNN Denoiser先验来有效地实现。进行了数值实验,并表明所提出的算法可以极大地恢复损坏的球形图像,并使用深度学习的DeNoiser和Paint-&play模型实现最佳性能。
translated by 谷歌翻译
尖峰神经网络由于其在专门硬件上的高能源效率而在机器人技术中具有巨大的潜在效用,但是概念验证的实现通常尚未通过常规方法实现竞争性能或能力。在本文中,我们通过引入一种新型的模块化整体网络方法来应对可扩展性的关键实践挑战之一,在这种方法中,紧凑的,本地化的尖峰网络每个人都学习,并且仅负责仅在环境的局部地区识别位置。这种模块化方法创建了一个高度可扩展的系统。但是,它带来了高性能的成本,在部署时间缺乏全球正规化会导致过度活跃的神经元,这些神经元错误地对其博学地区以外的地方做出了错误的反应。我们的第二个贡献介绍了一种正则化方法,该方法在初始环境学习阶段检测并消除了这些有问题的多动神经元。我们在基准定位数据集Nordland和Oxford Robotcar上评估了这种新的可扩展模块化系统,并与标准技术Netvlad和SAD进行了比较,以及先前的尖峰神经网络系统。我们的系统在其小数据集上大大优于先前的SNN系统,但在27倍的基准数据集上保持了性能,在该数据集上,以前系统的操作在计算上是不可行的,并且与常规定位系统竞争性能。
translated by 谷歌翻译
Visual Place识别(VPR)是机器人平台从其车载摄像机中正确解释视觉刺激的能力,以确定其当前是否位于先前访问的位置,尽管有不同的视点,照明和外观变化。 JPEG是一种广泛使用的图像压缩标准,能够以图像清晰度为代价显着降低图像的大小。对于同时部署多个机器人平台的应用程序,必须在每个机器人之间远程传输收集的视觉数据。因此,可以采用JPEG压缩来大大减少通信渠道传输的数据量,因为可以证明使用有限的带宽为有限的带宽是一项具有挑战性的任务。然而,以前尚未研究JPEG压缩对当前VPR技术性能的影响。因此,本文对与VPR相关方案中的JPEG压缩进行了深入研究。我们在8个数据集上使用一系列已建立的VPR技术,并应用了各种压缩。我们表明,通过引入压缩,VPR性能大大降低,尤其是在较高的压缩频谱中。为了克服JPEG压缩对VPR性能的负面影响,我们提出了一个微调的CNN,该CNN针对JPEG压缩数据进行了优化,并表明其在极度压缩的JPEG图像中检测到的图像转换更加一致。
translated by 谷歌翻译
由于全景分割为输入中的每个像素提供了一个预测,因此,非标准和看不见的对象系统地导致了错误的输出。但是,在关键的环境中,针对分发样本的鲁棒性和角案件对于避免危险行为至关重要,例如忽略动物或道路上的货物丢失。由于驾驶数据集不能包含足够的数据点来正确采样基础分布的长尾巴,因此方法必须处理未知和看不见的方案才能安全部署。以前的方法是通过重新识别已经看到未标记的对象来针对此问题的一部分。在这项工作中,我们扩大了提出整体分割的范围:一项任务,以识别和将看不见的对象分为实例,而无需从未知数中学习,同时执行已知类别的全面分割。我们用U3HS解决了这个新问题,U3HS首先将未知数视为高度不确定的区域,然后将相应的实例感知嵌入到各个对象中。通过这样做,这是第一次使用未知对象进行综合分割,我们的U3HS未接受未知数据的训练,因此使对象类型的设置不受限制,并允许对整体场景理解。在两个公共数据集上进行了广泛的实验和比较,即CityScapes和作为转移的丢失和发现,证明了U3HS在挑战性的整体分段任务中的有效性,并具有竞争性的封闭式全盘分段性能。
translated by 谷歌翻译
在康复任务期间,实施了现有混合中风康复方案的线性模型的比例迭代学习控制(P-ILC)。由于P-ILC的瞬时误差生长问题,包括学习派生的约束控制器,以确保每个试验中受控系统不会超过预定义的速度极限。为此,开发了机器人最终效应器相互作用与中风受试者(植物)的线性传递函数模型以及对刺激控制器的肌肉反应。 0-0.3 m范围的直线点点轨迹是工厂,进料和反馈刺激控制器的参考任务空间轨迹。在每个试验中,基于SAT的有界误差导数ILC算法是学习约束控制器。开发并模拟了三个控制配置。使用根均值平方误差(RMSE)和归一化的RMSE评估系统性能。在不同的ILC增益超过16次迭代时,当组合对照构型时,将获得0.0060 m的位移误差。
translated by 谷歌翻译
6-DOF的视觉定位系统利用植根于3D几何形状的原则方法来对图像进行准确的摄像头姿势估计图。当前的技术使用层次管道并学到了2D功能提取器来提高可扩展性并提高性能。但是,尽管典型召回@0.25m类型的指标获得了,但由于其“最差”性能领域,这些系统仍然对实际应用(如自动驾驶汽车)的实用性有限 - 在某种程度上提供不足的召回率的位置。在这里,我们研究了使用“位置特定配置”的实用性,其中将地图分割为多个位置,每个位置都有自己的配置,用于调节姿势估计步骤,在这种情况下,在多摄像机系统中选择摄像机。在福特AV基准数据集上,我们证明了与使用现成管道相比,我们证明了最大的最差案例定位性能 - 最小化数据集的百分比,该数据集的百分比降低了一定的误差耐受性,并提高了整体定位性能。我们提出的方法尤其适用于自动驾驶汽车部署的众群体模型,在该模型中,AV机队定期穿越已知的路线。
translated by 谷歌翻译
事件摄像机由于理想的特征,例如高动态范围,低延迟,几乎没有运动模糊和高能量效率而继续引起兴趣。事件摄像机研究的潜在应用之一是在机器人本地化的视觉场所识别中,必须将查询观测值与数据库中的相应参考位置匹配。在这封信中,我们探讨了一小部分像素(在数十个或数百个)中的事件流的独特性。我们证明,当使用在参考集中显示大变化的像素时,积累到事件框架的那些像素位置的事件数量的绝对差异就足以足以进行位置识别任务。使用如此稀疏(图像坐标),但是(对于每个像素位置的事件数量)有变化,可以使位置估计值的频繁和计算廉价更新。此外,当事件帧包含恒定事件的数量时,我们的方法充分利用了感官流的事件驱动性质,并显示出对速度变化的有希望的鲁棒性。我们在户外驾驶场景中评估了布里斯班 - 事件-VPR数据集的建议方法,以及新贡献的室内QCR-Event-VPR数据集,该数据集用安装在移动机器人平台上的Davis346相机捕获。我们的结果表明,与这些数据集上的几种基线方法相比,我们的方法可实现竞争性能,并且特别适合于计算和能源约束的平台,例如星际漫游者。
translated by 谷歌翻译
本文介绍了同时定位和基于映射的自主导航系统的开发。本研究的动机是寻找一个自主导航内部空间的解决方案。内部导航是挑战,因为它可以永远发展。解决这个问题是众多服务,如清洁,卫生行业和制造业。本文的重点是为此提出的自主系统开发的基于奴役的软件架构的描述。评估了该系统的潜在应用,以智能轮椅为导向。当前的内部导航解决方案需要某种引导线,就像地板上的黑线一样。通过这种提出的解决方案,内部不需要装修以适应该解决方案。此应用程序的源代码已成为开源,以便可以为类似的应用重新饰。此外,该开源项目被设想通过广泛的开源社区在其当前状态后得到改善。
translated by 谷歌翻译